Introducción a las técnicas multivariantes no supervisadas
Método para reducir la dimensionalidad de los datos cuando las variables son cuantitativas y existe presencia de correlación
Reproducir la matriz original en menos dimensiones
Enfoque de Hotelling (1933) o Pearson (1901)
Reproducir la matriz original en menos dimensiones.
Requiere de al menos 3 elementos:
Usemos un conjunto de datos estándar del paquete modelr
Ahora explore el conjunto de datos usando las funciones glimpse() y skim() y discuta la salida
Haga un diagrama de dispersión estre la estatura y el peso, el ingreso y la edad, el ingreso y los años de educación por sexo
height weight income age education
height 1.00000000 0.46819603 0.21795196 -0.018027269 0.064838443
weight 0.46819603 1.00000000 0.05247293 -0.014656703 -0.045021628
income 0.21795196 0.05247293 1.00000000 -0.023703215 0.394288235
age -0.01802727 -0.01465670 -0.02370322 1.000000000 -0.005998421
education 0.06483844 -0.04502163 0.39428823 -0.005998421 1.000000000
Puede ver una correlación en forma de matriz usando pairs.panels() del paquete psych
El instrumento del DASS 21 permite construir una escala de Depresión, Ansiedad y Estrés (DASS-21). Investigue más sobre su contrucción y propiedades psicométricas. Una versión del instrumento puede ser consultada aquí
Explore el conjunto del datos DASS21.sav el cual contiene los resultados para una muestra de 800 personas de Colombia realizada en el año 2022.
Puede usar lapply(dass, function(x) attributes(x)$label) para ver las etiquetas de las preguntas.
Grafique el diagrama de dispersión y calcule la correlación entre las variables cuantitativas de nivel de depresión, estrés y ansiedad.
¿Considera que el grado de asociación se diferencia entre hombres y mujeres?, haga los gráficos de dispersión segmentados por sexo
Realice los análisis que le permitan concluir sobre la asociación entre la depresión y la satisfacción con la vivienda, trabajo, amigos, vecinos y el barrio.
Teniendo en cuenta que las variables sobre la participación en actividades no son cuantitativas, investigue y discuta sobre la forma en que podría identificarse alguna asociación con la depresión.
Denominar a \(X\) como explicativa o predictora se debe a que el modeladmiento de datos tiene uno de dos propósitos:
En cada caso indique si el objetivo del modelo debe ser explicativo o predictivo. Suponga que tenemos interés en identificar:
. . .
. . .
. . .
. . .
Algunos modelos son:
Lineales: lm().
Generalizados: glm().
Bayesianos: stan_glm()
Penalizados: glmnet()
ML: tidymodels
\[ y_i = \beta_0 + \beta_1 X_{i} + \varepsilon_i\]
En donde
\[Y_i = \hat{Y}_i + (Y_i - \hat{Y}_i) = \hat{Y}_i + e_i \]
El objetivo entonces es minimizar
\[\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^n (Y_i - [\beta_0 + \beta_1 X_i])^2\]
El procedimiento se conoce como Mínimos Cuadrados Ordinarios (MCO).
Considere nuevamente los datos del paquete modelr
Teniendo en cuenta que el ingreso está medido en dolares al año:
Descomposición de la varianza
\[\sum_{i=1}^n (Y_i - \bar{Y}_i)^2 = \sum_{i=1}^n (Y_i - \hat{Y})^2+ \sum_{i=1}^n e^2\]
El coeficiente de determinación es un indicador entre 0 y 1:
\[\sum_{i=1}^n (Y_i - \bar{Y}_i)^2 = \sum_{i=1}^n (Y_i - \hat{Y})^2+ \sum_{i=1}^n e^2\]
\[SCT = SCR + SCE\]
Se deduce que:
\[R^2 = \frac{SCR}{SCT} = 1 - \frac{SCE}{SCT}\]
El valor de \(R^2\) está entre 0 y 1.
| r.squared | adj.r.squared | sigma | statistic | p.value | df | logLik | AIC | BIC | deviance | df.residual | nobs |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 0.1547128 | 0.1545919 | 51407.62 | 1280.111 | 1.313761e-257 | 1 | -85815.3 | 171636.6 | 171657.1 | 1.848335e+13 | 6994 | 6996 |
Podemos preguntarnos si el ingreso depende del sexo de la persona. Para ello es clave que la variable categórica sea de clase factor.
Revisión de la clase de la variable del sexo
| Characteristic | Beta | 95% CI1 | p-value |
|---|---|---|---|
| (Intercept) | 53,510 | 51,675, 55,345 | <0.001 |
| sex | |||
| male | — | — | |
| female | -23,922 | -26,481, -21,364 | <0.001 |
| R² | 0.046 | ||
| p-value | <0.001 | ||
| 1 CI = Confidence Interval | |||
Ajuste un modelo de regresión simple que le permita identificar si el puntaje de depresión se relaciona con el sexo
Convierta la variable sexo en factor así: dass$sexo <- as_factor(dass$sexo)
Ajuste el modelo de regresión y presente los resultados.
Interprete los coeficientes y el valor p.
\[y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + \varepsilon_i\]
Matricialmente se puede expresar como
\[\mathbf{y} = \mathbf{X}'\mathbf{B} + \mathbf{\varepsilon}\]
El estimador MCO es:
\[\hat{\mathbf{B}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}\]
Ajuste un modelo para el ingreso en función de las variables de años de eduación, sexo y estado civil.
\[Ingreso_i = f(Educa, Sexo, Est. Civil) + \varepsilon_i\]
Observe que las variables explicativas son cuantitativas y cualitativas. Verifique que la clase esté bien definida.
Esciba la ecuación del modelo e interprete los resultados.
| Characteristic | Beta | 95% CI1 | p-value |
|---|---|---|---|
| (Intercept) | -67,047 | -73,482, -60,611 | <0.001 |
| education | 8,305 | 7,854, 8,756 | <0.001 |
| sex | |||
| male | — | — | |
| female | -26,580 | -28,906, -24,254 | <0.001 |
| marital | |||
| single | — | — | |
| married | 18,574 | 15,277, 21,872 | <0.001 |
| separated | 2,500 | -3,312, 8,311 | 0.4 |
| divorced | 7,864 | 4,080, 11,649 | <0.001 |
| widowed | 9,967 | 1,784, 18,151 | 0.017 |
| R² | 0.229 | ||
| p-value | <0.001 | ||
| 1 CI = Confidence Interval | |||
Que no se cumplan los supuestos puede afectar varios aspectos: sesgos, problemas de pronóstico, error de contraste.
No se debe presentar un patrón, así que la línea roja debe estar aproximadamente de forma horizontal en cero.
Se espera que que los puntos queden igualmente distribuidos dentro de una banda estable.
Un ajuste cercano a la línea de 45 grados es indice de que el supuesto de normalidad se satisface.
# A tibble: 5 × 11
.rownames income education sex marital .fitted .resid .hat .sigma .cooksd
<chr> <int> <int> <fct> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
1 2654 343830 16 male widowed 75805. 2.68e5 0.00696 49015. 0.0300
2 1108 343830 20 fema… single 72478. 2.71e5 0.00217 49013. 0.00949
3 2550 343830 20 male single 99058. 2.45e5 0.00222 49033. 0.00792
4 4973 343830 20 male single 99058. 2.45e5 0.00222 49033. 0.00792
5 5060 343830 20 male single 99058. 2.45e5 0.00222 49033. 0.00792
# ℹ 1 more variable: .std.resid <dbl>
Ajuste un modelo de regresión lineal múltiple con al menos 3 variables explicativas que resulten significativas para modelar el puntaje de depresión. Escriba la ecuación, interprete los coeficientes, revise los supuestos y concluya.
Ajuste un modelo de regresión lineal múltiple con al menos 3 variables explicativas que resulten significativas para modelar el puntaje de estrés. Escriba la ecuación, interprete los coeficientes, revise los supuestos y concluya.
Çetinkaya-Rundel, M. and Hardin, J. (2021) Introduction to modern statistics. Sections of Regression modeling: 7, 8, 9 y 10. Disponible aquí: https://openintro-ims.netlify.app/
Ismay, C., & Kim, A.Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse (1st ed.). Chapman and Hall/CRC. https://doi.org/10.1201/9780367409913
Thompson, J. (2019). Tidy Data Science with the tidyverse and tidymodels. https://tidyds-2021.wjakethompson.com
Diapositivas disponibles en GitHub.